我们开发了一种组合量子蒙特卡罗的准确性在描述与机器学习电位(MLP)的效率描述电子相关性的技术。我们使用内核线性回归与肥皂(平滑的重叠原子位置)方法结合使用,以非常有效的方式在此实现。关键成分是:i)一种基于最远点采样的稀疏技术,确保我们的MLP的一般性和可转换性和II)所谓的$ \ Delta $ -Learning,允许小型训练数据集,这是一种高度准确的基本属性但是计算地要求计算,例如基于量子蒙特卡罗的计算。作为第一个应用,我们通过强调这一非常高精度的重要性,展示了高压氢气液体过渡的基准研究,并显示了我们的MLP的高精度的重要性,实验室在实验中难以进行实验,以及实验理论仍然远非结论。
translated by 谷歌翻译
Machine learning (ML) is revolutionizing protein structural analysis, including an important subproblem of predicting protein residue contact maps, i.e., which amino-acid residues are in close spatial proximity given the amino-acid sequence of a protein. Despite recent progresses in ML-based protein contact prediction, predicting contacts with a wide range of distances (commonly classified into short-, medium- and long-range contacts) remains a challenge. Here, we propose a multiscale graph neural network (GNN) based approach taking a cue from multiscale physics simulations, in which a standard pipeline involving a recurrent neural network (RNN) is augmented with three GNNs to refine predictive capability for short-, medium- and long-range residue contacts, respectively. Test results on the ProteinNet dataset show improved accuracy for contacts of all ranges using the proposed multiscale RNN+GNN approach over the conventional approach, including the most challenging case of long-range contact prediction.
translated by 谷歌翻译
多态全斜形图像(WSI)注册是一个积极的研究领域。但是,目前尚不清楚当前的WSI注册方法将如何在现实世界数据集上执行。通过使用来自常规诊断的新数据集来评估现实世界中的适用性,以验证当前WSI注册方法的性能来验证当前WSI注册方法的性能。在本报告中,我们介绍了Acrobat挑战的解决方案。我们采用两步方法,包括刚性和非刚性变换。实验结果表明,验证数据集的中位数为1,250 UM。
translated by 谷歌翻译
在过去的十年中,基因组数据的可用性已成倍增长,这主要是由于新测序技术的发展。基于从增加的基因组数据中提取的基因(和基因产物)之间的相互作用,许多研究集中在基因与功能之间的关联鉴定上。尽管这些研究表现出了很大的希望,但用功能注释基因的问题仍然是一个悬而未决的挑战。在这项工作中,我们提出了一种检测层次多标签分类数据集中缺失注释的方法。我们提出了一种通过将汇总概率计算到每个实例的从叶子到根的类路径来利用类层次结构的方法。提出的方法是在预测缺失基因函数注释的背景下提出的,其中这些汇总概率被进一步用于选择一组通过体内实验验证的注释。各种大米的Oriza Sativa Japonica的实验,将类别的层次结合到该方法中通常会改善预测性能,而我们所提出的方法与文献相比,我们提出的方法可以提高结果。
translated by 谷歌翻译
流体(VOF)方法的体积被广泛用于多相流仿真中,以跟踪和定位两个不混溶的流体之间的界面。VOF方法的主要瓶颈是界面重建步骤,由于其高计算成本和非结构化网格的精度较低。我们建议基于图神经网络(GNN)的机器学习增强的VOF方法,以加速通用非结构化网格上的接口重建。我们首先开发一种方法来基于在非结构化网格上离散的抛物面表面生成合成数据集。然后,我们训练基于GNN的模型并执行概括测试。我们的结果表明,在工业背景下,基于GNN的界面重建方法的效率。
translated by 谷歌翻译
我们微调GPT-3使用基于文本的Web浏览环境来回答长形问题,允许模型搜索和导航Web。通过建立任务,以便通过人类执行,我们能够使用模仿学习培训在任务上的模型,然后通过人体反馈优化答案质量。为了使人为评估事实精度更容易,模型必须在浏览支持答案时收集引用。我们在ELI5上培训并评估我们的模型,Reddit用户提出的问题数据集。我们的最佳模型是通过使用行为克隆进行微调GPT-3获得的,然后对训练训练的奖励模型进行拒绝采样来获得以预测人类偏好。这种模式的答案是人类56%的答案,我们的人类示威者的时间和69%的时间到Reddit的最高投票答复。
translated by 谷歌翻译
多任务学习(MTL)是深度学习中的一个活动字段,其中我们通过利用任务之间的关系来共同学习多项任务。已经证明,与独立学习每个任务时,MTL有助于该模型共享任务之间的学习功能并增强预测。我们为2任务MTL问题提出了一个新的学习框架,它使用一个任务的预测作为另一个网络的输入来预测其他任务。我们定义了由循环一致性损失和对比学习,对齐和跨任务一致性损失的两个新的损失术语。这两个损耗都旨在实施模型以对准多个任务的预测,以便模型一致地预测。理论上我们证明,两次损失都帮助模型更有效地学习,并且在与直接预测的对齐方面更好地了解跨任务一致性损失。实验结果还表明,我们的拟议模型在基准城市景观和NYU数据集上实现了显着性能。
translated by 谷歌翻译
科学和工程中的复杂过程通常被制定为多阶段决策问题。在本文中,我们考虑了一种称为级联过程的多级决策过程。级联过程是一个多级过程,其中一个级的输出用作下一阶段的输入。当每个阶段的成本昂贵时,难以详尽地搜索每个阶段的最佳可控参数。为了解决这个问题,我们将级联过程的优化作为贝叶斯优化框架的延伸,提出了两种类型的采集功能(AFS),基于可靠的间隔和预期的改进。我们调查所提出的AFS的理论特性,并通过数值实验证明其有效性。此外,我们考虑一个被称为悬架设置的延伸,其中我们被允许在多阶段决策过程中暂停级联过程,这些过程经常出现在实际问题中。我们在太阳能电池模拟器的优化问题中应用提出的方法,这是本研究的动机。
translated by 谷歌翻译
最先进的语言模型可以在许多任务中匹配人类性能,但它们仍然努力努力执行多步数学推理。要诊断当前模型和支持研究的故障,我们介绍了GSM8K,是8.5k高质量的语言学级别学校数学词问题的数据集。我们发现即使是最大的变压器模型也无法实现高测试性能,尽管该问题分布的概念简单性。为了提高性能,我们提出培训验证者来判断模型完成的正确性。在测试时间,我们生成许多候选解决方案,并选择验证者排名最高的解决方案。我们证明,验证显着提高了GSM8K的性能,我们提供了强大的经验证据,即验证尺度更有效地具有比FineTuning基线的数据增加。
translated by 谷歌翻译